Puheen syvempi merkitys: Manuaalisen litteroinnin arvo inhimillisessä kommunikaatiossa
by Sanna
Teksteissä käytetään useampia puheentunnistukseen liittyviä termejä. Voit tarkistaa kunkin termin merkityksen tekstin lopussa olevista termilaatikoista.
Litteroinnin tavoitteena ei ole vain sanojen kirjoittaminen tekstimuotoon. Tutkimuksen kannalta on oleellista monesti tietää myös, miten asiat on sanottu. Tutkimuksen tarkoitus määrää käytettävän litterointitavan.
Tauot
Haastattelutilanteessa puheeseen kuuluvat epäselvät puhejaksot ja tilanteet, joissa puhuja hakee sanoja ja jäsentelee kertomaansa. Tyypillisimmät puheentunnistusjärjestelmät eivät ainakaan toistaiseksi osaa merkitä litteraatioon taukoja eivätkä taukojen kestoja.
Vastauksen tulkinnan kannalta on kuitenkin oleellista tietää, tuleeko vastaus kysymykseen kuin apteekin hyllyltä vai pysähtyykö vastaaja miettimään ja pohtimaan ennen vastaamista.
Manuaalisessa litteroinnissa kaikki merkitykselliset tauot merkataan kestoineen ylös.
Tunteet ja konteksti
Puheessa olevat tauot voivat kertoa miettimisestä ja epävarmuudesta. Äänen korottaminen tai tunneilmaisut vaikuttavat niin ikään sisällön tulkintaan.
Monet ilmaukset muuttuvat merkitykseltään aivan toisiksi, jos ihminen nauraa ne sanoessaan. Voit esimerkiksi miettiä lauseen ”Se oli ihan kauheaa” merkitystä, jos se lausutaan nauraen tai itkien.
Manuaalisessa litteroinnissa näkyvät ilot ja surut: litteroijan kommentilla merkitään niin merkitykselliset naurut kuin liikutuksen hetket.
Litteroija huomioi merkinnöissään myös jokaisen puhujan yksilöllisen puhetyylin: hermostuneen puhujan toistuvia jännityksestä johtuvia naurahduksia tai verkkaisen puhujan kaikkia taukoja ei merkitä näkyviin,
vaan tunneilmaisuista poimitaan ylös vain sisällön kannalta oleelliset ilmaisut.
Puhetempo ja intonaatio
Myös puheen intonaatiolla eli sävelkululla on vaikutusta sanotun tulkintaan: toteamuksen ja kysymyksen sävelkulku on erilainen, vaikka puheen sisältö näyttäisikin kirjoitettuna identtiseltä.
Esimerkiksi ilmaus ”kaikki kunnossa” voi kontekstista riippuen olla positiivinen toteamus tai huolestunut kysymys – merkitysero näiden kahden välillä on valtava. Litteroija merkitsee sävyeron näkyviin, mikäli se ei käy tekstistä muuten ilmi.
Ihmisellä on kyky tulkita, mitä toinen tarkoittaa puhuessaan. Yksikään ihminen ei pysty tulkitsemaan toisen ihmisen puhetta täydellisesti, ja tulkintoja on yhtä monta kuin litteroijaakin.
Tekoälyn tekemät ratkaisut perustuvat kuitenkin keskiarvoihin, ja sen kyky reflektoida itseään ja työtään on rajallinen. Tämän takia usein toteamme, että hieman vinoutunutkin ihmistulkinta on todennäköisemmin luotettavampi kuin pelkästään koneen tekemä tulkinta.
Manuaalinen litterointi: Äänitiedoston tai puheen manuaalista muuntamista tekstiksi. Ihminen kuuntelee äänitiedoston ja kirjoittaa sen sanat ylös.
Automaattinen litterointi: Prosessi, jossa tietokoneohjelma muuntaa automaattisesti äänitiedoston tekstiksi. Ihminen ei osallistu litteraation tuottamiseen, vaan litteraatio on tietokoneen tekemä.
Puheentunnistusteknologia: Tietotekniikan alue, joka mahdollistaa ihmisen puheen automaattisen tunnistamisen ja muuntamisen kirjoitetuksi tekstiksi tai toiminnoksi. Teknologia käyttää algoritmeja ja koneoppimismenetelmiä äänisignaalien analysointiin ymmärtääkseen puhuttua kieltä ja muuttaakseen sen digitaaliseen muotoon.
Puheentunnistusjärjestelmä: Laaja teknologinen infrastruktuuri tai alusta, joka sisältää tarvittavat laitteet, ohjelmistot ja algoritmit puheen tunnistamiseen ja prosessointiin. Kun puhutaan litterointiin soveltuvista järjestelmistä, käyttäjille on tarjolla sekä omalle koneelle ladattavia puheentunnistusjärjestelmiä että API-rajapintojen avulla järjestelmiä käyttäviä sovelluksia ja palveluita.
Tekoälypohjainen tai tekoälyä hyödyntävä puheentunnistusjärjestelmä: Puheentunnistusjärjestelmä, johon on integroitu tekoäly. Puheentunnistuksen prosessissa tekoäly erottelee ja analysoi ääntä ja tunnistaa ja tulkitsee luonnollisen kielen ominaisuuksia sekä puheen kontekstia. Tämä prosessi on lähellä ihmisen tekemää ajatustyötä ja parantaa huomattavasti puheentunnistuksen lopputulosta.
Puheentunnistussovellus: Konkreettinen tuote tai palvelu, joka hyödyntää puheentunnistusteknologiaa tiettyyn käyttötarkoitukseen. Sovellukset voivat olla mobiili- tai desktop-ohjelmistoja. Näitä ovat esimerkiksi älypuhelimessa toimiva sovellus, joka muuntaa puheen tekstiviestiksi, tai virtuaaliassistentti, joka suorittaa käyttäjän puhekomentoja. Sovellukset rakennetaan usein hyödyntämällä olemassa olevia puheentunnistusjärjestelmiä tai -alustoja.
Suomen kielen erityispiirteisiin liittyvien haasteiden lisäksi automaattisessa litteroinnissa ongelmia voivat aiheuttaa myös äänitteisiin liittyvät epäselvyydet.
Puheen tunnistamista vaikeuttavat sekä rahisevat tai hiljaiset äänitteet että meluisa ympäristö ja useampi päällekkäin keskusteleva puhuja.
Tässä tekstissä käymme läpi teknisiä ja ympäristöllisiä haasteita, jotka tekevät manuaalisesta litteroinnista välttämättömyyden tietyissä tilanteissa.
Puheentunnistusteknologian käyttö litteroinnissa voi keventää ja tehostaa työtä. Millaisissa tilanteissa manuaalinen eli ihmisen tekemä litterointityö on edelleen korvaamatonta?
Syvennymme blogisarjassamme tilanteisiin, jossa joko sisällön ja kontekstin tulkinta tai audion laatu edellyttävät ihmisen kuuloa ja ymmärrystä.
Näin sinun on helpompi arvioida automaattisen ja manuaalisen litteroinnin hyötyjä oman aineistosi näkökulmasta.
Aloitamme manuaalisen litteroinnin vahvuuksia käsittelevän sarjan selventämällä, miksi armas suomen kielemme ei ole puheentunnistusteknologian paras ystävä, ei vaikka apuna olisi lisäksi tekoäly.